exgrpo框架

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

实验结果显示，与传统的在线策略RLVR（基于可验证奖励的强化学习）方法相比，ExGRPO在不同基准上均带来了一定程度的性能提升。

模型推理范式 exgrpo exgrpo框架 2025-10-23 16:44 10